iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 22
0
AI & Data

AWS 數據處理與分析實戰系列 第 22

Day 22 Glue Workflows 教學 - Part 2

  • 分享至 

  • xImage
  •  

今天要來補充一下昨天的小細節,昨天有介紹完 Workflow 的使用方式,可以正常產生出每個User購買最多的前五名商品,但如果是使用昨天的 S3 資料階層來當資料源時(如下),因為我們加入了年月日也就是 Partition,所以 Data Catalog 需要修改部分設定才能正常工作

it.sample.s3
   ㇄SampleData
        ㇄order
        ⎢   ㇄2020
        ⎢      ㇄01
        ⎢        ㇄01
        ⎢          ㇄orders.csv
        ㇄order_products_prior
        ⎢   ㇄2020
        ⎢      ㇄01
        ⎢        ㇄01
        ⎢          ㇄order_products__prior.csv
        ㇄order_products_train
        ⎢   ㇄2020
        ⎢      ㇄01
        ⎢        ㇄01
        ⎢          ㇄order_products__train.csv
        ㇄products
        ⎢   ㇄2020
        ⎢      ㇄01
        ⎢        ㇄01
        ⎢          ㇄products.csv
        ㇄sample_submission
        ⎢   ㇄2020
        ⎢      ㇄01
        ⎢        ㇄01
        ⎢          ㇄sample_submission.csv
        ㇄departments
        ⎢   ㇄2020
        ⎢      ㇄01
        ⎢        ㇄01
        ⎢          ㇄departments.csv
        ㇄aisles
           ㇄2020
              ㇄01
                ㇄01
                   ㇄aisles.csv

接下來我們來說明 Data Catalog 需要如何修改

  1. 在 Crawler 中 S3 的路徑需使用 s3://it.sample.s3/SampleData 才能正常產生出多張 Table

https://ithelp.ithome.com.tw/upload/images/20201006/20129236mtmn0NaQOu.png

  1. 在執行此 Crawler 前需先到 Table 刪除已存在的 Table,這樣 S3 上的 Partition 才能正常產生在 Table 中(年月日的部分)

https://ithelp.ithome.com.tw/upload/images/20201006/201292366mRbqPWuRo.png

  1. 執行成功後可以看到 Table 中多出了三個 Partition 欄位,這樣一來我們就可以依照年月日的方式切分資料,Workflow 也可以在上傳完成資料源後透過 API 觸發,進行更新 Partition 的工作,在透過 ETL Job 製作出相對應的 Report

https://ithelp.ithome.com.tw/upload/images/20201006/20129236FsLoUNdmHD.png


上一篇
Day 21 Glue Workflows 教學 - Part 1
下一篇
Day 23 Redshift 簡介
系列文
AWS 數據處理與分析實戰30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言